受数字孪生系统的启发,开发了一个新型的实时数字双框架,以增强机器人对地形条件的感知。基于相同的物理模型和运动控制,这项工作利用了与真实机器人同步的模拟数字双重同步,以捕获和提取两个系统之间的差异信息,这两个系统提供了多个物理数量的高维线索,以表示代表差异建模和现实世界。柔软的,非刚性的地形会导致腿部运动中常见的失败,因此,视觉感知完全不足以估计地形的这种物理特性。我们使用了数字双重来开发可折叠性的估计,这通过动态步行过程中的物理互动来解决此问题。真实机器人及其数字双重双重测量之间的感觉测量的差异用作用于地形可折叠性分析的基于学习的算法的输入。尽管仅在模拟中受过培训,但学习的模型可以在模拟和现实世界中成功执行可折叠性估计。我们对结果的评估表明,对不同方案和数字双重的优势的概括,可在地面条件下可靠地检测到细微差别。
translated by 谷歌翻译
最近的蒙版图像建模(MIM)在自我监督学习(SSL)中受到了很多关注,该学习要求目标模型恢复输入图像的掩盖部分。尽管基于MIM的预训练方法在转移到许多下游任务时达到了新的最新性能,但可视化表明,与基于基于对比性学习预训练相比,学习的表示形式不可分割,尤其是相比。这激发了我们思考MIM预培训表示的线性可分离性是否可以进一步改善,从而改善了训练的性能。由于MIM和对比度学习倾向于利用不同的数据增强和培训策略,因此将这两个借口任务结合起来并不是微不足道的。在这项工作中,我们提出了一个新颖而灵活的预训练框架,名为Mimco,该框架通过两阶段的预培训结合了MIM和对比度学习。具体而言,MIMCO将预先训练的对比学习模型作为教师模型,并通过两种类型的学习目标进行了预培训:贴片级和图像级的重建损失。关于下游任务的广泛转移实验证明了我们的MIMCO预训练框架的出色表现。以VIT-S为例,当使用预先训练的MoCov3-Vit-S作为教师模型时,Mimco只需要100个时期的预训练时期即可达到Imagenet-1K上的82.53%Top-1 FineTuning精度,这表现优于表现最先进的自我监督学习对手。
translated by 谷歌翻译
域的概括(DG)旨在在一个或多个不同但相关的源域上学习一个模型,这些模型可以推广到看不见的目标域。现有的DG方法试图提示模型的概括能力的源域的多样性,同时他们可能必须引入辅助网络或达到计算成本。相反,这项工作应用了特征空间中的隐式语义增强来捕获源域的多样性。具体来说,包括距离度量学习(DML)的附加损失函数,以优化数据分布的局部几何形状。此外,采用跨熵损失的逻辑被无限增强作为DML损失的输入特征,以代替深度特征。我们还提供了理论分析,以表明逻辑可以近似于原始特征上定义的距离。此外,我们对方法背后的机制和理性进行了深入的分析,这使我们可以更好地了解为什么要代替特征的杠杆逻辑可以帮助域的概括。拟议的DML损失与隐式增强作用纳入了最近的DG方法中,即傅立叶增强联合老师框架(FACT)。同时,我们的方法也可以轻松地插入各种DG方法中。对三个基准测试(Digits-DG,PAC和办公室家庭)进行的广泛实验表明,该建议的方法能够实现最新的性能。
translated by 谷歌翻译
工业机器人在自动生产中起着至关重要的作用,该生产已在工业生产活动中广泛使用,例如处理和焊接。但是,由于未校准的机器人具有加工耐受性和组装耐受性,因此其绝对定位精度较低,无法满足高精度制造的要求。为了解决这个热门问题,我们提出了一种基于无味的卡尔曼过滤器和变量尺寸的levenberg-marquardt算法的新型校准方法。这项工作有三个想法:a)提出一种新颖的变量尺寸的levenberg-marquardt算法来解决Levenberg-Marquardt算法中本地最佳的问题; b)使用无气味的卡尔曼过滤器来减少测量噪声的影响; c)开发一种新型的校准方法,该方法结合了带有变量尺寸的levenberg-marquardt算法的无气体卡尔曼滤波器。此外,我们对ABB IRB 120工业机器人进行了足够的实验。从实验结果中,提出的方法比某些最新的校准方法获得了更高的校准精度。因此,这项工作是机器人校准领域的重要里程碑。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
医疗机器人技术可以帮助改善和扩大医疗服务的影响力。医疗机器人的一个主要挑战是机器人与患者之间的复杂物理相互作用是必须安全的。这项工作介绍了基于医疗应用中分形阻抗控制(FIC)的最近引入的控制体系结构的初步评估。部署的FIC体系结构在主机和复制机器人之间延迟很强。它可以在接纳和阻抗行为之间在线切换,并且与非结构化环境的互动是强大的。我们的实验分析了三种情况:远程手术,康复和远程超声扫描。实验不需要对机器人调整进行任何调整,这在操作员没有调整控制器所需的工程背景的医疗应用中至关重要。我们的结果表明,可以使用手术刀进行切割机器人,进行超声扫描并进行远程职业治疗。但是,我们的实验还强调了需要更好的机器人实施例,以精确控制3D动态任务中的系统。
translated by 谷歌翻译
由于任意方向,大规模和纵横比变化以及物体的极端密度,航行图像中的旋转对象检测仍然具有挑战性。现有的最新旋转对象检测方法主要依赖于基于角度的检测器。但是,角度回归很容易遭受长期的边界问题。为了解决这个问题,我们提出了一个纯粹的无角框架,用于旋转对象检测,称为Point RCNN,该框架主要由Pointrpn和Pointreg组成。特别是,Pointrpn通过用粗到精细的方式转换学到的代表点来生成准确的旋转ROI(RROI),这是由重置的动机。基于学习的Rrois,Pointreg执行角点完善以进行更准确的检测。此外,空中图像通常在类别中严重不平衡,现有方法几乎忽略了这个问题。在本文中,我们还通过实验验证了重新采样罕见类别的图像将稳定训练并进一步改善检测性能。实验表明,我们的点RCNN在常用的空中数据集上实现了新的最先进的检测性能,包括DOTA-V1.0,DOTA-V1.5和HRSC2016。
translated by 谷歌翻译
一阶段算法已被广泛用于需要使用大量数据训练的目标检测系统。他们中的大多数都以实时和准确的态度表现出色。但是,由于其卷积结构,他们需要更多的计算能力和更多的记忆消耗。因此,我们将修剪策略应用于靶向检测网络,以减少参数的数量和模型的大小。为了证明修剪方法的实用性,我们为实验选择了Yolov5模型,并提供了室外障碍的数据集以显示模型的效果。在最佳情况下,在此特定数据集中,与原始模型相比,网络模型的体积减少了49.7%,并且推理时间减少了52.5%。同时,它还使用数据处理方法来补偿修剪导致的准确性下降。
translated by 谷歌翻译
Jaccard索引,也称为交叉联盟(iou),是图像语义分段中最关键的评估度量之一。然而,由于学习目的既不可分解也不是可分解的,则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理,但没有提供泛化能力的保证。在本文中,我们提出了一种边缘校准方法,可以直接用作学习目标,在数据分布上改善IOO的推广,通过刚性下限为基础。本方案理论上,根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性,显示使用深度分割模型的其他学习目标的IOU分数大量改进。
translated by 谷歌翻译
光保护综合技术的快速进展达到了真实和操纵图像之间的边界开始模糊的临界点。最近,一个由Mega-Scale Deep Face Forgery DataSet,由290万个图像组成和221,247个视频的伪造网络已被释放。它是迄今为止的数据规模,操纵(7个图像级别方法,8个视频级别方法),扰动(36个独立和更混合的扰动)和注释(630万个分类标签,290万操纵区域注释和221,247个时间伪造段标签)。本文报告了Forgerynet-Face Forgery Analysis挑战2021的方法和结果,它采用了伪造的基准。模型评估在私人测试集上执行离线。共有186名参加比赛的参与者,11名队伍提交了有效的提交。我们将分析排名排名的解决方案,并展示一些关于未来工作方向的讨论。
translated by 谷歌翻译